RTSGameBench: Evaluación de estrategia para modelos visión-lenguaje
Nuevo benchmark RTS revela fallos de VLMs en estrategia: ¿pueden coordinar y planificar bajo incertidumbre?
Nuevo benchmark RTS revela fallos de VLMs en estrategia: ¿pueden coordinar y planificar bajo incertidumbre?